Average word length | # of sentences | Source |
---|---|---|
10.10 | 10 | http://koi.wikipedia.org/wiki/Йӧгра_кытш |
10.69 | 12 | http://koi.wikipedia.org/wiki/Лихачёв_Михаил_Павлович |
10.79 | 13 | http://koi.wikipedia.org/wiki/Мошегова_Анна_Трофимовна |
11.02 | 10 | http://koi.wikipedia.org/wiki/Адзва_(ю) |
11.10 | 36 | http://koi.wikipedia.org/wiki/Кудым_Ош |
11.12 | 84 | http://koi.wikipedia.org/wiki/Мушар |
11.21 | 13 | http://koi.wikipedia.org/wiki/Лытва_район |
11.23 | 12 | http://koi.wikipedia.org/wiki/Луздор_район |
11.25 | 403 | http://koi.wikipedia.org/wiki/Иисус_Христос |
11.25 | 13 | http://koi.wikipedia.org/wiki/Улісь_иньва_диалект |
11.34 | 19 | http://koi.wikipedia.org/wiki/Хабаров_ладор |
11.36 | 16 | http://koi.wikipedia.org/wiki/Сӧснагорт_район |
11.40 | 20 | http://koi.wikipedia.org/wiki/Перем_ладор |
11.42 | 12 | http://koi.wikipedia.org/wiki/Таллинн |
11.45 | 16 | http://koi.wikipedia.org/wiki/Киняргванда |
11.49 | 10 | http://koi.wikipedia.org/wiki/Нантали_(коммуна) |
11.54 | 12 | http://koi.wikipedia.org/wiki/Важ_перем_гижӧт |
11.59 | 20 | http://koi.wikipedia.org/wiki/Чилимдін_район |
11.60 | 10 | http://koi.wikipedia.org/wiki/Оханнӧй |
11.65 | 18 | http://koi.wikipedia.org/wiki/Торокан |
11.71 | 37 | http://koi.wikipedia.org/wiki/Чомор |
11.71 | 17 | http://koi.wikipedia.org/wiki/Едэма_(Изьва_район) |
11.74 | 29 | http://koi.wikipedia.org/wiki/Эжва_(ю) |
11.76 | 17 | http://koi.wikipedia.org/wiki/Саридздын_ладор |
11.78 | 13 | http://koi.wikipedia.org/wiki/Вишера_район |
11.82 | 27 | http://koi.wikipedia.org/wiki/Ыджыт_Коча_(Кӧчладор_район) |
11.82 | 13 | http://koi.wikipedia.org/wiki/Кӧчладор_район |
11.89 | 22 | http://koi.wikipedia.org/wiki/Мӧсква |
11.92 | 41 | http://koi.wikipedia.org/wiki/Кудымкар_район |
11.93 | 21 | http://koi.wikipedia.org/wiki/Чукотка_кытш |
Average word length | # of sentences | Source |
---|---|---|
14.93 | 23 | http://koi.wikipedia.org/wiki/Красинькӧв_(Кӧсладор_район) |
14.39 | 11 | http://koi.wikipedia.org/wiki/Кривощёкова-Гантман_Антонина_Семёновна |
14.19 | 10 | http://koi.wikipedia.org/wiki/Кельмаков_Валей_Кельмакович |
14.07 | 21 | http://koi.wikipedia.org/wiki/Карбас_(Кудымкар_район) |
14.01 | 12 | http://koi.wikipedia.org/wiki/Изьватас |
13.99 | 16 | http://koi.wikipedia.org/wiki/Африка |
13.94 | 13 | http://koi.wikipedia.org/wiki/Баталова_Раиса_Михайловна |
13.85 | 13 | http://koi.wikipedia.org/wiki/Лойма_(коммуна) |
13.73 | 10 | http://koi.wikipedia.org/wiki/Лузса |
13.71 | 12 | http://koi.wikipedia.org/wiki/Петыковчи_(Юсьва_район) |
13.68 | 33 | http://koi.wikipedia.org/wiki/Сизьӧв_(Кӧчладор_район) |
13.67 | 11 | http://koi.wikipedia.org/wiki/Чукыль_(Кудымкар_район) |
13.64 | 18 | http://koi.wikipedia.org/wiki/Гаврив_Пёдор |
13.63 | 23 | http://koi.wikipedia.org/wiki/Кярсямяки_(Турку) |
13.61 | 14 | http://koi.wikipedia.org/wiki/Усикавпунки_(коммуна) |
13.60 | 40 | http://koi.wikipedia.org/wiki/Пеклаыб_(Кӧсладор_район) |
13.57 | 10 | http://koi.wikipedia.org/wiki/Нефедьев_Степан_Григорьевич |
13.55 | 43 | http://koi.wikipedia.org/wiki/Мелюкинчи_(Юсьва_район) |
13.55 | 37 | http://koi.wikipedia.org/wiki/Вертюсва_(Кудымкар_район) |
13.51 | 24 | http://koi.wikipedia.org/wiki/Бормотовчи_(Кудымкар_район) |
13.49 | 15 | http://koi.wikipedia.org/wiki/Мыс_(Кӧсладор_район) |
13.47 | 23 | http://koi.wikipedia.org/wiki/Лыдним |
13.40 | 23 | http://koi.wikipedia.org/wiki/Мурмӧс_(Юсьва_район) |
13.39 | 12 | http://koi.wikipedia.org/wiki/Чудь-йӧгра_кыввез |
13.37 | 37 | http://koi.wikipedia.org/wiki/Пармайыл_(Кӧчладор_район) |
13.37 | 19 | http://koi.wikipedia.org/wiki/Москвина_(Кӧчладор_район) |
13.36 | 27 | http://koi.wikipedia.org/wiki/Сыктывдін_район |
13.35 | 24 | http://koi.wikipedia.org/wiki/Тӧдчанним |
13.35 | 11 | http://koi.wikipedia.org/wiki/Пономарёва_Лариса_Геннадьевна |
13.34 | 12 | http://koi.wikipedia.org/wiki/Волегов_Федот_Алексеевич |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words